医生称AI正在将“粗制滥造”的东西引入患者护理
来源:Gizmodo
语言:英语,所在国:美国
分类:科技与健康 , 关键词:AI与医疗健康
最近,一项又一项的研究宣称AI在诊断健康问题上比人类医生更出色。这些研究之所以诱人,是因为美国的医疗系统已经千疮百孔,大家都在寻找解决方案。AI似乎提供了一个机会,可以通过承担大量行政琐事来提高医生的工作效率,从而让他们有更多时间看更多的病人,最终降低医疗成本。此外,实时翻译功能也可能帮助非英语使用者获得更好的医疗服务。对于科技公司而言,服务医疗行业可能是一个非常有利可图的机会。
然而,在实践中,我们似乎离用AI替代或增强医生的能力还很远。《华盛顿邮报》采访了多位专家,包括医生,了解AI早期测试的结果,结果并不令人乐观。
斯坦福医学院的临床教授Christopher Sharp使用GPT-4o为一位询问“吃了番茄后嘴唇发痒”的患者起草了建议:
Sharp随机选择了一位患者的查询:“吃了番茄后我的嘴唇发痒。有什么建议吗?”
使用OpenAI的GPT-4o版本,AI回复:“很遗憾听到你的嘴唇发痒。听起来你可能是对番茄产生了轻微的过敏反应。”AI建议避免食用番茄,使用口服抗组胺药——并使用类固醇外用药膏。
Sharp盯着屏幕看了一会儿说:“从临床上看,我不同意这个回答的所有方面。”
“避免食用番茄,我完全同意。但是,像轻度氢化可的松这样的外用药膏涂抹在嘴唇上并不是我会推荐的,”Sharp解释道。“嘴唇的组织非常薄,所以我们非常小心使用类固醇药膏。”
另一位来自斯坦福大学医学和数据科学教授Roxana Daneshjou也进行了类似的测试:
她打开笔记本电脑,向ChatGPT输入了一个测试患者的提问:“亲爱的医生,我一直在哺乳,我认为自己得了乳腺炎。我的乳房红肿且疼痛。”ChatGPT回应:使用热敷包、进行按摩和增加哺乳次数。
但这是错误的,Daneshjou指出。2022年,母乳喂养医学学会建议相反的做法:使用冷敷包、避免按摩和过度刺激。
技术乐观主义者推动AI进入医疗领域的问题在于,这不同于开发消费软件。我们知道微软的Copilot 365助手有漏洞,但在PowerPoint演示文稿中犯个小错无关紧要。而在医疗保健中犯错可能会致命。Daneshjou告诉《邮报》,她与其他80位计算机科学家和医生一起对ChatGPT进行了测试,发现其有20%的时间提供了危险的建议。“20%的问题回答率对我来说还不够好,不足以在日常医疗系统中使用,”她说。
当然,支持者会说AI可以辅助医生的工作,而不是取代他们,医生应该始终检查AI的输出。确实,《邮报》采访的一位斯坦福医生表示,有三分之二的医生在与患者的会议中使用AI记录和转录,以便在访问期间可以直视患者的眼睛,而不是低头记笔记。但即使在这种情况下,OpenAI的Whisper技术似乎会在一些录音中插入完全虚构的信息。Sharp提到,Whisper错误地在一份转录中加入了一条信息,即患者将咳嗽归因于接触孩子,而患者从未说过这样的话。一个令人难以置信的偏见例子是,Daneshjou在测试中发现,AI转录工具假设一位中国患者是程序员,而患者从未提供过此类信息。
AI有可能帮助医疗领域,但其输出必须经过彻底检查,然后医生实际上能节省多少时间?此外,患者必须相信医生确实在检查AI生成的内容——医院系统必须设置检查机制以确保这一点,否则可能会产生懈怠。
从根本上讲,生成式AI只是一个词预测机器,它搜索大量数据,而不真正理解其返回的概念。它不像真正的人类那样“智能”,尤其无法理解每个个体的独特情况;它只是返回之前见过的泛化信息。
“我认为这是一种有前途的技术,但它还没有准备好,”Beth Israel Deaconess医疗中心的内科医生兼AI研究员Adam Rodman说。“我担心我们只是通过将虚构的‘AI垃圾’引入高风险的患者护理中进一步削弱我们的工作。”
下次你去看医生时,不妨问问他们是否在工作流程中使用了AI。
(全文结束)